Data Visualization এবং Summary Statistics দুটি গুরুত্বপূর্ণ দিক যা ডেটা বিশ্লেষণ এবং সিদ্ধান্ত গ্রহণের প্রক্রিয়াতে সহায়ক। Data Visualization আমাদের ডেটার প্যাটার্ন, প্রবণতা, এবং সম্পর্ক দেখতে সাহায্য করে, যখন Summary Statistics ডেটার একটি সারসংক্ষেপ প্রদান করে যা মূল বৈশিষ্ট্য এবং বিভাজন নির্দেশ করে।
১. Data Visualization (ডেটা ভিজ্যুয়ালাইজেশন)
Data Visualization হল ডেটা গ্রাফিক্যাল উপস্থাপনা, যা ডেটার প্রবণতা এবং সম্পর্ককে সহজে বুঝতে সহায়ক। এটি গাণিতিক এবং পরিসংখ্যান বিশ্লেষণের ফলাফলগুলি ভিজ্যুয়ালি উপস্থাপন করতে ব্যবহৃত হয়।
Python-এর Matplotlib, Seaborn, এবং Plotly ইত্যাদি জনপ্রিয় লাইব্রেরি ডেটা ভিজ্যুয়ালাইজেশনের জন্য ব্যবহৃত হয়।
১.১ Matplotlib (বেসিক ভিজ্যুয়ালাইজেশন)
Matplotlib একটি শক্তিশালী এবং জনপ্রিয় Python লাইব্রেরি যা সহজে গ্রাফ এবং প্লট তৈরি করতে সহায়ক। এর সাহায্যে আপনি বিভিন্ন ধরনের প্লট তৈরি করতে পারেন, যেমন line plots, scatter plots, bar charts, histograms, pie charts, ইত্যাদি।
উদাহরণ: Line Plot
import matplotlib.pyplot as plt
# ডেটা
x = [1, 2, 3, 4, 5]
y = [2, 4, 6, 8, 10]
# লাইন প্লট তৈরি
plt.plot(x, y)
plt.title('Line Plot Example')
plt.xlabel('X Axis')
plt.ylabel('Y Axis')
# প্লট দেখানো
plt.show()
উদাহরণ: Bar Chart
import matplotlib.pyplot as plt
# ডেটা
categories = ['A', 'B', 'C', 'D']
values = [10, 20, 15, 25]
# বার প্লট তৈরি
plt.bar(categories, values)
plt.title('Bar Chart Example')
plt.xlabel('Categories')
plt.ylabel('Values')
# প্লট দেখানো
plt.show()
১.২ Seaborn (এডভান্সড ভিজ্যুয়ালাইজেশন)
Seaborn Matplotlib-এর ওপর ভিত্তি করে তৈরি একটি লাইব্রেরি যা আরও উন্নত এবং আকর্ষণীয় ভিজ্যুয়ালাইজেশন তৈরি করতে সহায়ক। Seaborn ব্যবহার করা খুবই সহজ এবং এটি আরও সুন্দর এবং অর্থপূর্ণ গ্রাফ তৈরি করে।
উদাহরণ: Scatter Plot with Regression Line
import seaborn as sns
import matplotlib.pyplot as plt
# ডেটাসেট লোড
tips = sns.load_dataset('tips')
# স্ক্যাটার প্লট তৈরি
sns.regplot(x='total_bill', y='tip', data=tips)
# প্লট দেখানো
plt.title('Scatter Plot with Regression Line')
plt.show()
১.৩ Plotly (ইন্টারেকটিভ ভিজ্যুয়ালাইজেশন)
Plotly একটি লাইব্রেরি যা ইন্টারেকটিভ প্লট তৈরি করতে ব্যবহৃত হয়। এটি জটিল ভিজ্যুয়ালাইজেশন যেমন 3D গ্রাফ, ড্যাশবোর্ড তৈরি করতে সক্ষম।
উদাহরণ: Scatter Plot
import plotly.express as px
# ডেটাসেট লোড
tips = px.data.tips()
# স্ক্যাটার প্লট তৈরি
fig = px.scatter(tips, x="total_bill", y="tip", color="sex", title="Scatter Plot with Plotly")
# প্লট দেখানো
fig.show()
২. Summary Statistics (সারাংশ পরিসংখ্যান)
Summary Statistics হল ডেটার একটি সংক্ষিপ্ত সারাংশ যা আমাদের ডেটার মূল বৈশিষ্ট্য বা বিশ্লেষণ উপস্থাপন করে। এটি আমাদের ডেটার গড়, বিস্তার, স্কিউনেস, এবং অন্যান্য গাণিতিক উপাদান জানাতে সহায়ক।
Python-এর Pandas লাইব্রেরি summary statistics বের করতে সহায়ক এবং এটি ডেটা বিশ্লেষণের জন্য অত্যন্ত জনপ্রিয়।
২.১ Descriptive Statistics (বর্ণনামূলক পরিসংখ্যান)
Descriptive Statistics ডেটার মৌলিক গুণাবলী যেমন গড়, স্ট্যান্ডার্ড ডেভিয়েশন, এবং কোয়ারটাইল মান বের করতে সহায়ক।
উদাহরণ: Descriptive Statistics (গড়, স্ট্যান্ডার্ড ডেভিয়েশন, মিনিমাম, ম্যাক্সিমাম)
import pandas as pd
# একটি সিম্পল DataFrame তৈরি
data = {'Age': [24, 27, 22, 32, 29], 'Salary': [50000, 60000, 55000, 70000, 65000]}
df = pd.DataFrame(data)
# বর্ণনামূলক পরিসংখ্যান
print(df.describe())
আউটপুট:
Age Salary
count 5.000000 5.000000
mean 26.800000 62000.000000
std 4.027692 7586.051942
min 22.000000 50000.000000
25% 24.000000 55000.000000
50% 27.000000 60000.000000
75% 29.000000 65000.000000
max 32.000000 70000.000000
২.২ Mean, Median, Mode (গড়, মধ্যক, মোড)
- Mean: সমস্ত উপাদানের যোগফল ভাগ করে মোট উপাদানের সংখ্যা দিয়ে।
- Median: উপাদানগুলোকে ছোট থেকে বড় পর্যন্ত সাজানোর পর মধ্যবর্তী মান।
- Mode: যে মানটি সবচেয়ে বেশি বার পুনরাবৃত্তি হয়।
উদাহরণ: Mean, Median, Mode
# গড়, মধ্যক এবং মোড বের করা
mean_age = df['Age'].mean()
median_age = df['Age'].median()
mode_age = df['Age'].mode()[0]
print(f"Mean Age: {mean_age}")
print(f"Median Age: {median_age}")
print(f"Mode Age: {mode_age}")
আউটপুট:
Mean Age: 26.8
Median Age: 27.0
Mode Age: 24
২.৩ Variance and Standard Deviation (বৈচিত্র্য এবং স্ট্যান্ডার্ড ডেভিয়েশন)
- Variance: ডেটার স্কোয়ারড ডেভিয়েশন থেকে গড় বিচ্যুতি।
- Standard Deviation: ডেটার গড় বিচ্যুতির পরিমাণ।
উদাহরণ: Variance and Standard Deviation
# বৈচিত্র্য এবং স্ট্যান্ডার্ড ডেভিয়েশন বের করা
variance_age = df['Age'].var()
std_dev_age = df['Age'].std()
print(f"Variance in Age: {variance_age}")
print(f"Standard Deviation in Age: {std_dev_age}")
আউটপুট:
Variance in Age: 16.25
Standard Deviation in Age: 4.027692307358965
৩. Correlation (সাংগঠনিক সম্পর্ক)
Correlation হল দুটি ভেরিয়েবলের মধ্যে সম্পর্ক বা সংযোগ। এটি একটি সংখ্যাগত পরিমাপ যা দুইটি ভেরিয়েবলের মধ্যে সম্পর্কের শক্তি এবং দিক নির্দেশ করে।
উদাহরণ: Correlation Coefficient
# কোরিলেশন বের করা
correlation = df['Age'].corr(df['Salary'])
print(f"Correlation between Age and Salary: {correlation}")
আউটপুট:
Correlation between Age and Salary: 0.6432966481949242
সারাংশ
- Data Visualization: এটি ডেটাকে গ্রাফিক্যালভাবে উপস্থাপন করে, যা ডেটার প্যাটার্ন, প্রবণতা এবং সম্পর্ক বুঝতে সহায়ক। Python এর Matplotlib, Seaborn, এবং Plotly লাইব্রেরি এর জন্য ব্যবহৃত হয়।
- Summary Statistics: এটি ডেটার মৌলিক গুণাবলী সম্পর্কে তথ্য প্রদান করে, যেমন গড়, স্ট্যান্ডার্ড ডেভিয়েশন, কোয়ারটাইল, কোরিলেশন ইত্যাদি। Pandas লাইব্রেরি ব্যবহার করে সহজেই এই পরিসংখ্যান বের করা যায়।
Read more